[2023年12月7日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
AWS re:Invent 2023が開催
2023年11月27日〜12月1日に、AWSの年次カンファレンスイベント「AWS re:Invent 2023」がラスベガスで開催されました。
MDS関係でいうと、「Amazon Redshift ServerlessのAIによるスケーリングと最適化機能」、「Amazon S3 Express One Zone」、「QuickSight Q + 生成 BI 機能をさらに拡張したAmazon Q in QuickSight」あたりが私は特に気になりました。
その他の情報についてはぜひ下記のリンク先よりご確認ください。
Data Engineering in Retrospect: Key Trends and Patterns of 2023
Data Engineering Weeklyにて、2023年のデータエンジニアリングのトレンドをまとめた記事が投稿されていました。
LLM関連、LakeHouseフォーマットを巡る熾烈な戦い、DatabricksやMS Fabricのような統合基盤の台頭、など確かに2023年話題になったことについて多く述べられているため、参考になると思います。
Semantic Layer as the Data Interface for LLMs
LLMを用いて自然言語でリクエストしてクエリやデータセットを得る機能が2023年は多くの製品から発表・リリースされていますが、この精度を向上させるためにSemantic Layerが注目されています。
下記の記事では、OpenAI API(GPT-4)とHEXのNotebookを用いて、dbt Semantic Layerに対して自然言語で問い合わせを行うとどれくらい正しい結果が得られるかという検証を行い、83%の正答率が得られたと書かれています。
下記の記事中には、質問一覧を載せたスプレッドシートやコードを載せたリポジトリへのリンクもありますので、ぜひ併せてご覧ください。
また、この記事の検証の延長で、DelphiというサービスにCubeで定義したSemantic Layerをつなぐことで精度を100%にすることが出来たという記事と動画が出ていました。
Advent Calendarの時期です!
今年も早いもので12月、Advent Calendarの時期です!
Modern Data Stack関係だと、私が確認している中では以下のカレンダーをウォッチすると良さそうです。
Data Extract/Load
Airbyte
move(data)が2023年12月6日~7日で開催
Airbyte社が主催するカンファレンスイベントmove(data)が現地時間2023年12月6日~7日で開催されています。
各Modern Data Stackの企業のCEOやCTOクラスの方も多く登壇されているイベントです。
Data Warehouse/Data Lakehouse
Snowflake
Iceberg Tableがパブリックプレビュー
Open Table FormatであるApache Icebergを用いて、SnowflakeにデータをロードせずともSnowflakeの標準テーブルと近い性能を出すことができるIceberg Tableがパブリックプレビューとなりました。
注意点としてはCatalogを、Snowflake管理の「Snowflake as the Iceberg catalog」にするか、外部のCatalogを用いる「Catalog Integration」にするか、によって出来ることが異なってきます。詳細は下記の公式Docをご覧ください。
併せて、公式ブログにおいてもどのようにCatalogが機能しているかの図を含めた記事が投稿されていますので、こちらもぜひご覧ください。
また、Snowflake Iceberg Catalog SDKを用いて、Snowflake as the Iceberg catalogで定義されたIceberg TableをDatabricksから参照する記事も出ていました。
SELECT Cloudの導入事例
CARTA MARKETING FIRM社で、SELECT CloudというSnowflakeのコスト管理と最適化に特化したSaaSの導入事例についての記事が出ていました。
- コストの上昇傾向あるウェアハウスからハイコストなクエリを確認し、分析して、改善を行う、という一連の導線がわかりやすく実装されている
- 使われていないテーブルを特定する
- コストに関するレポートをSlackに投稿できる
- ウェアハウスの自動節約機能をONにしたことで、利用料を40%程度削減できるワークロードも出てきた
など、Snowflakeのモニタリングに当たって魅力的な機能を多く提供しております。
また、SELECT社はdbt-snowflake-monitoring
というdbt packageを提供しており、このpackageを使うことでもSnowflakeのコスト管理に関するModelを利用することは可能です。まずはここから試して頂き、興味を持ったらウェアハウスの自動節約などの機能を持つCloud版を試す、という流れでも良さそうです。
SnowflakeにおけるCTEのマテリアライズについて
Snowflakeにおいて、CTE(WITH句)を用いたクエリを記述するとマテリアライズされて再利用されるパターンがあります。
このCTEのマテリアライズについて、「マテリアライズされる・されない」「マテリアライズされてもパフォーマンスが悪化するパターン」についてわかりやすく言及された記事が出ていました。
Notebook
Hex
HexのSQL生成機能であるMagic SQLでのメタデータの参照先をカスタマイズできる「Data Manager」機能の発表
Hexが、AI機能でSQLを生成する際に、メタデータの参照先をカスタマイズできる機能「Data Manager」を発表しました!
テーブルやカラムの情報だけでなく、dbtドキュメントの情報も用いることができ、更にはどのテーブル&カラムを含めるか、除外するか、優先順位も設定可能のようです。
最近は色んなサービスが生成AIの機能を発表していますが、このHexの機能のように各組織に合わせてチューニングできる機能がないと使い物にならないと思っているので、こういう機能が出てくるのは嬉しいですね。
あとは余談ですが、データカタログやSemantic Layerとネイティブに連携する生成AI機能をどこかのサービスが出してくれることを私は期待しているのですが…これはまだのようですw
Data Catalog
Atlan
Microsoft Excelとの統合機能の発表
Atlanが新しく、Microsoft Excelとの統合機能の発表しました。
Excelのアドインを介してメタデータを一括管理したりできるようです。
Data Quality・Data Observability
Great Expectations
Ver 1.0について
Great Expectationsはこれまで0.xのバージョンのみリリースされていますが、今後4ヶ月以内に1.0のリリースを行う予定であると述べられた記事が出ていました。
Data Security
Immuta
ImmutaがAmazon S3とのNative Integration機能を発表
ImmutaはこれまでSnowflakeなどのDWH上における動的なアクセス権管理やデータのマスキングに特化した機能を提供していましたが、今回DWH以外では初となるS3との連携機能を発表しました。